Dropbox のデータを Fivetran と Snowflake に連携する方法
(For English version click here)
はじめに:
Fivetran ではクラウドコンピューティングの体験を向上させるために多種なコネクターの提供に取り組んでいます。この記事では、Dropbox コネクターについて詳しくご説明いたします。以下の図のように Dropbox は Fivetran と連携して既存のデータが最終的に Snowflake にて取得することが出来ます。
Box に存在する次のファイル類であれば読み取りは可能です。Separated Value ファイル (例:CSV, TSV, など)、改行で区切れの JSON テキストファイル、JSON Arrays、Avro と Parquet です。互換性の為に、このファイルに保管するデータのエンコーディングは:UTF-8、UTF-16、もしくは UTF-32 のいずれかで大きいか小さいエンディアンが必要になります。ファイルの最初にバイト順マークが無い場合は UTF-8 エンコーディングは自動的に選ばれます。
ご利用の方法:
最初は、Fivetran と Snowflake を登録して連携します。詳しくはこちらから確認して下さい。Snowflake 初期セットアップガイド(英語版).
次は、Dropbox を登録する為に Fivetran の操作画面から以下のように “Add Connector” ボタンをクリックします。次の画面より ”Dropbox” 言葉で検索すると Dropbox コネクターが現れそれにクリックします。
次は、必要になるターゲットのスキーマとテーブル名を登録し “Authorize” ボタンをクリックします。
次に現れる画面では Dropbox へのアクセスを承認する。
承認が成功したことが検証されたら接続が完了とします。次は詳細な設定になり以下のような画面が現れます。ここで複数の内容が選べます例えば:フォルダーやサブフォルダのパス、選べたいファイル名のパターン、ファイル類、ファイル使用する前に減圧が必要かどうか、エラーが現れたファイルに対して処理方法、データの更新による処理、デリミタの設定、データに含む特定の文字をスキップする、ヘッダー行とフッター行をスキップする、ヘッダーが存在し無いファイルの処理など。
全ての設定は入力して “Save & Test” ボタンをクリックします。Dropbox のコネクターがこれで完了になります。
ステータスページではコネクターに関する情報が現れます。ここで “Start Initial Sync” をクリックすると Dropbox の初期同期をはじめます。
同期が完了しましたら Snowflake の操作を行いコネクターが確認します。SQL クエリを実行すればデータの読み込みが完成したことを確認出来ます。
お好みなダウンストリームのデータ処理がここから行えます。 Fivetran は ELT 方法で動きますので、データを抽出しウェアハウスへ一旦保存します、その後は 編集作業行える仕組みです。
最後に:
Dropbox と Fivetran をつなげて Snowflake で次の処理することが出来ます。